Introduction à la programmation Triton : des opérateurs immédiats au parallélisme basé sur les blocs

Passer de mode immédiat PyTorch à Triton exige un changement de perspective : au lieu de considérer les tenseurs comme des objets monolithiques, il faut les voir comme des collections de blocs discrets et gérables blocs ou tuiles.

1. Tenseurs PyTorch vs. tenseurs Triton

Il est essentiel de distinguer tenseurs Triton de tenseurs PyTorch. Un tenseur PyTorch est un objet Python côté hôte enveloppant la forme, le type de données (dtype), l'appareil (device), les décalages (strides) et les métadonnées de stockage. En revanche, Triton travaille avec les pointeurs vers les données brutes dans des blocs mémoire spécifiques, permettant une optimisation beaucoup plus fine au niveau du matériel.

2. Le goulot d'étranglement de l'exécution immédiate

Dans l'exécution standard immédiate, chaque opération (par exemple, addition puis ReLU) nécessite un lancement séparé de noyau et un aller-retour en mémoire globale. C'est le principal goulot d'étranglement dans le calcul moderne sur GPU. Triton contourne ce problème en fusionnant des opérations au sein d'un seul noyau qui traite des blocs de données (par exemple, 128, 256 ou 512 éléments) directement en mémoire intégrée.

3. Le paradigme basé sur les blocs

Plutôt que de penser au niveau scalaire comme dans les threads CUDA, Triton utilise SPMD (programme unique, multiples données) au niveau du bloc. Vous écrivez un seul noyau, et Triton lance plusieurs instances à travers une grille. Chaque instance utilise son program_id pour calculer quel "morceau" de mémoire lui appartient.

4. Configuration de l'environnement

Pour commencer, installez Triton dans un environnement propre (en utilisant Conda ou venv) pour éviter tout conflit de dépendances avec les kits CUDA existants : pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.